هوش مصنوعی حالا از همیشه باهوش تره

بررسی تخصصی بنچمارک ها و قابلیت های جدید GPT-5

ستایش سکاکی

0 445 خواندن این مطلب 2 دقیقه زمان میبرد

بالاخره جدید ترین نسخه gpt معرفی شد مدلی که شایعات زیادی در موردش گفتن

بعضی ها اونو در ادامه آپدیت gpt4 نمیدونستن و منتظر اتفاقات جدید تری بودن.

اما این مدل دقیقا چه آپدیت هایی داده؟

چقدر از gpt-4 قوی تره؟

آیا به هوش انسانی رسیدیم یا فقط نسخه باهوش تر مدل قبلیه؟

بریم که یه بررسی کامل از نسخه جدید داشته باشیم.

۱. منطق پیشرفته و تفکر زنجیره ای (Chain-of-Thought)

gpt‑5 خیلی هوشمند تر و واقعی تر شده تو مدل های قبلی سریع جواب میده گاهی حتی بدون اینکه فکر کنه اما تو مدل جدید مخصوصا تو مسائل چند مرحله ای میتونه خیلی عمیق تر فکر کنه و تصمیم گیری بهتری هم بکنه این بخاطر ترکیب مدل های reasoning مانند o1 و o3 هست .

۲. سرعت و تطبیق هوشمند پاسخ (Auto-Routing)

مدل جدید تصمیم میگیره که سریع پاسخ بده یا اینکه در مورد مسایل با دقت فکر کنه و بعد پاسخ بده وجواب هوشمند تر و دقیق تری میده.

۳. عملکرد در کدنویسی ( بنچمارک‌های SWE-Bench و Aider)

gpt‑5 در زمینه کدنویسی رکوردهای خیلی خوبی ثبت کرده

SWE-Bench Verified: امتیاز 74.9٪
Aider Polyglot: امتیاز 88٪
این عملکرد نسبت به مدل Claude Opus 4 در SWE-Bench بهتره (Claude Opus 4 حدود 74.5٪) .

۴. بنچمارک‌های حوزه سلامت Health Bench

در زمینه مسائل پزشکی، مدل “thinking” gpt‑5

Health Bench Hard: امتیاز 46.2٪ به دست آورده

(با هشدار Open AI که جایگزین پزشک نیست) .

۵. افزایش دقت و خیال بافی کمتر (کاهش توهم hallucination)

یعنی چی؟

یعنی gpt5 خیلی کمتر از مدل های قبلی جواب پرت و پلا میده

تو نسخه جدیدش نسبت به مدل O3 حدود 65 درصد کمتر توهم میزنه .

در مقایسه با 4O هم حدود 26 درصد کمتر دچار خطا میشه

۶. حافظه خیلی بیشتر شده!

gpt-5 حافظه‌ش واقعاً زیاد شده!

الان می‌تونه تا ۲۵۶ هزار تا کلمه رو توی ذهنش نگه داره و فراموش نکنه.

یعنی حتی اگه یه متن خیلی طولانی بهش بدی، هنوز حرف‌هات یادش می‌مونه و قاطی نمی‌کنه.

قبلاً گاهی اوقات مدل‌ها وسط راه همه‌چی رو یادشون می‌رفت، الان دیگه این‌جوری نیست.

۷. یه مقایسه با رقبا: Gemini Ultra و Claude 3.7

حالا بیایم ببینیم تو رقابت با بقیه چی کار کرده:

• تو تستای زبانی (یعنی فهم و درک متن)، gpt-5 یه ذره بهتر از Gemini Ultra ظاهر شده.

• تو برنامه‌نویسی هم قوی‌تره؛ ۸۷ درصد سوالا رو درست جواب داده، در حالی که Gemini Ultra حدود 83 درصد.

• توی ریاضی هم بازم یه ذره جلوتره (۹۴.۲٪ مقابل ۹۳.۵٪).

در مقایسه با Claude 3.7:

• توی استدلال و منطق، Claude یه کم از gpt-5 بهتره.

• اما توی برنامه‌نویسی، gpt-5 قوی‌تره.

• سرعتش هم بیشتره (یعنی جواب‌ها رو سریع‌تر می‌نویسه).

• البته Claude توی کار با ابزارها و انجام دستورها یه مقدار حرفه‌ای‌تره.

خلاصه اینکه تو بیشتر زمینه‌ها gpt -5 جلو زده، ولی هر مدلی یه نقطه قوت داره!

برای استفاده از قابلیت‌های جدید GPT-5، نیاز به یک اکانت هوش مصنوعی یا همان اکانت ChatGPT داری که از نسخه جدید پشتیبانی کند.

ستایش سکاکی

0 445 خواندن این مطلب 2 دقیقه زمان میبرد

مدل Gemini 2.5 Deep Think؛ عضو جدید خانواده‌ی جمنای!

مدل جدید سه بعدی از دیپ مایند – معرفی Genie 3

Workflows اومد تا ساخت ویدیو با هوش مصنوعی رو متحول کنه!

قابلیت جدید GPT-5 – استدلال یکپارچه چت جی پی تی

Copilot پاییزی با 12 قابلیت جدید منتشر شد!

7 هوش مصنوعی برای ساخت پادکست حرفه‌ای + پرامپت ساخت پادکست

۷ ابزار برتر هوش مصنوعی برای ترجمه متن (حتی متون تخصصی)